有在做資料分析的朋友,應該很常發生拿到資料不完整的情況,尤其當資料屬於人工維護時,品質會相對比較差,也較容易出現該填寫的地方卻是空值的問題,今天我們就要來針對遺失值進行探討
以下是根據自身經驗常使用的遺失值處理方法,若有誤用的地方也歡迎指教
移除整筆資料
當遺失值是少數的時候,可以選擇移除整筆資料,因為是少數,所以不會影響整個資料的分布
插補平均數(mean)、中位數(median)、眾數(mode)
將遺失值分成一類(適用類別型變數)
另一種類別型欄位的插補方式,可以將所有的遺失值分成另一類,通常會插補不常見的值,例如: -1或999
取一筆最相似的資料做插補(熱卡插補)
根據其他變數當作輔助,找到其他相似的完整資料,並使用該藍未來做插補。
還有其他像是迴歸、ML的插補方法,因為前面尚未介紹過這些方法,因此在本篇不贅述